AI资讯新闻榜单内容搜索-LLM

图灵奖得主Sutton再突破：强化学习在控制问题上媲美深度强化学习？

不知道大家是否还记得，人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton，在一个多月前的演讲。 Sutton 认为，LLM 现在学习人类数据的知识已经接近极限，依靠「模仿人类」很难再有创新。

来自主题: AI技术研报

7280 点击 2025-08-04 12:25

提速79%！上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25

复合LLM应用 (compound LLM applications) 是一种结合大语言模型（LLM）与外部工具、API、或其他LLM的高效多阶段工作流应用。

来自主题: AI技术研报

7931 点击 2025-07-25 09:51

ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗？

大语言模型（Large Language Model, LLM）在复杂推理任务中表现卓越。借助链式思维（Chain-of-Thought, CoT），LLM 能够将复杂问题分解为简单步骤，充分探索解题思路并得出正确答案。LLM 已在多个基准上展现出优异的推理能力，尤其是数学推理和代码生成。

来自主题: AI技术研报

5354 点击 2025-07-24 15:10

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

多模态大模型通常是在大型预训练语言模型（LLM）的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力，但经过多模态训练后，这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报

6436 点击 2025-07-15 10:07

长思维链里的推理步骤，哪些最关键？三招锁定LLM的「命门句子」

思维链里的步骤很重要，但有些步骤比其他步骤更重要，尤其是在一些比较长的思维链中。找出这些步骤，我们就可以更深入地理解 LLM 的内部推理机制，从而提高模型的可解释性、可调试性和安全性。

来自主题: AI技术研报

5925 点击 2025-07-09 10:51

OAI/谷歌/DeepSeek首次合体「AI梦之队」！战力飙升30%，碾压一切单模型

三个前沿AI能融合成AGI吗？Sakana AI提出Multi-LLM AB-MCTS方法，整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型，在推理过程中动态协作，通过试错优化生成过程，有效融合群体AI智慧。

来自主题: AI技术研报

7599 点击 2025-07-06 13:06

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

6829 点击 2025-07-05 12:10